Come la startup di intelligenza artificiale "menti digitali" Delphi ha smesso di annegare nei dati degli utenti e si è espansa con Pinecone

Vuoi ricevere informazioni più intelligenti nella tua casella di posta? Iscriviti alle nostre newsletter settimanali per ricevere solo ciò che conta per i leader aziendali in materia di intelligenza artificiale, dati e sicurezza. Iscriviti ora
Delphi , una startup di San Francisco specializzata in intelligenza artificiale fondata due anni fa e che prende il nome dall'oracolo dell'antica Grecia , si trovava ad affrontare un problema tipico del XXI secolo: le sue "Digital Minds" , chatbot interattivi e personalizzati modellati sull'utente finale e progettati per canalizzare la sua voce in base ai suoi scritti, alle sue registrazioni e ad altri media, erano sommerse dai dati.
Ogni Delphi può attingere a qualsiasi numero di libri, feed social o materiali didattici per rispondere in modo contestualizzato, trasformando ogni interazione in una conversazione diretta. Creatori, coach, artisti ed esperti li utilizzavano già per condividere spunti e coinvolgere il pubblico.
Ma ogni nuovo caricamento di podcast, PDF o post sui social media su un'applicazione Delphi aggiungeva complessità ai sistemi aziendali. Mantenere questi alter ego di intelligenza artificiale reattivi in tempo reale senza compromettere il sistema diventava ogni settimana più difficile.
Fortunatamente, Dephi ha trovato una soluzione ai suoi problemi di scalabilità utilizzando il database vettoriale gestito Pinecone.
La scalabilità dell'intelligenza artificiale raggiunge i suoi limiti
Limiti di potenza, aumento dei costi dei token e ritardi nelle inferenze stanno rimodellando l'intelligenza artificiale aziendale. Partecipa al nostro esclusivo salone per scoprire come i migliori team stanno:
- Trasformare l'energia in un vantaggio strategico
- Progettazione di inferenze efficienti per reali guadagni di produttività
- Sbloccare il ROI competitivo con sistemi di intelligenza artificiale sostenibili
Assicurati il tuo posto per rimanere in vantaggio : https://bit.ly/4mwGngO
I primi esperimenti di Delphi si basavano su archivi vettoriali open source. Questi sistemi si sono rapidamente indeboliti rispetto alle esigenze dell'azienda. Le dimensioni degli indici sono aumentate vertiginosamente, rallentando le ricerche e complicando la scalabilità.
I picchi di latenza durante gli eventi in diretta o i caricamenti improvvisi di contenuti rischiavano di compromettere il flusso della conversazione.
Quel che è peggio è che il piccolo ma crescente team di ingegneri di Delphi si è ritrovato a trascorrere settimane a ottimizzare gli indici e a gestire la logica di sharding invece di sviluppare funzionalità del prodotto.
Il database vettoriale completamente gestito di Pinecone, con conformità SOC 2, crittografia e isolamento dello spazio dei nomi integrato, si è rivelato una soluzione migliore.
Ogni Digital Mind ha ora il proprio namespace all'interno di Pinecone. Questo garantisce privacy e conformità e restringe la superficie di ricerca durante il recupero delle informazioni dal suo repository di dati caricati dagli utenti, migliorando le prestazioni.
I dati di un creatore possono essere eliminati con una singola chiamata API . I recuperi avvengono costantemente in meno di 100 millisecondi al 95° percentile, rappresentando meno del 30% del rigoroso obiettivo di latenza end-to-end di un secondo di Delphi.
"Con Pinecone, non dobbiamo preoccuparci se funzionerà o meno", ha affermato Samuel Spelsberg, co-fondatore e CTO di Delphi , in una recente intervista. "Questo permette al nostro team di ingegneri di concentrarsi sulle prestazioni delle applicazioni e sulle funzionalità del prodotto, piuttosto che sull'infrastruttura di similarità semantica".
Il cuore del sistema Delphi è una pipeline di generazione aumentata dal recupero (RAG). I contenuti vengono acquisiti, ripuliti e suddivisi in blocchi; quindi incorporati utilizzando modelli di OpenAI, Anthropic o lo stack di Delphi.
Tali incorporamenti vengono memorizzati in Pinecone sotto il namespace corretto. Al momento della query, Pinecone recupera i vettori più rilevanti in millisecondi, che vengono poi inviati a un modello linguistico di grandi dimensioni per produrre risposte, una tecnica diffusa nel settore dell'intelligenza artificiale nota come generazione aumentata del recupero (RAG).
Questa progettazione consente a Delphi di mantenere conversazioni in tempo reale senza sovraccaricare i budget di sistema.
Come ha spiegato Jeffrey Zhu, vicepresidente del prodotto presso Pinecone , un'innovazione fondamentale è stata l'abbandono dei tradizionali database vettoriali basati su nodi a favore di un approccio basato sull'archiviazione degli oggetti.
Invece di conservare tutti i dati in memoria, Pinecone carica dinamicamente i vettori quando necessario e scarica quelli inattivi.
"Questo è perfettamente in linea con i modelli di utilizzo di Delphi", ha affermato Zhu. "Digital Minds viene invocato a raffiche, non costantemente. Separando storage ed elaborazione, riduciamo i costi e consentiamo al contempo la scalabilità orizzontale".
Pinecone regola automaticamente gli algoritmi in base alla dimensione dello spazio dei nomi. I Delphi più piccoli possono memorizzare solo poche migliaia di vettori; altri ne contengono milioni, derivati da creatori con decenni di archivi.
Pinecone applica in modo adattivo il miglior approccio di indicizzazione in ogni caso. Come ha affermato Zhu, "Non vogliamo che i nostri clienti debbano scegliere tra algoritmi o interrogarsi sul recall. Ci occupiamo di tutto questo in modo autonomo".
Non tutte le menti digitali sono uguali. Alcuni creatori caricano set di dati relativamente piccoli – feed dei social media, saggi o materiali didattici – che ammontano a decine di migliaia di parole.
Altri vanno molto più a fondo. Spelsberg ha descritto un esperto che ha contribuito con centinaia di gigabyte di PDF scansionati, frutto di decenni di esperienza nel marketing.
Nonostante questa varianza, l'architettura serverless di Pinecone ha consentito a Delphi di scalare oltre 100 milioni di vettori archiviati su oltre 12.000 namespace senza incontrare problemi di scalabilità.
Il recupero rimane costante, anche durante i picchi innescati da eventi live o perdite di contenuti. Delphi ora supporta circa 20 query al secondo a livello globale , supportando conversazioni simultanee in tutti i fusi orari senza incidenti di scalabilità.
L'ambizione di Delphi è quella di ospitare milioni di Digital Minds, un obiettivo che richiederebbe il supporto di almeno cinque milioni di namespace in un singolo indice.
Per Spelsberg, questa scala non è ipotetica, ma parte della roadmap del prodotto. "Siamo già passati da un'idea in fase iniziale a un sistema che gestisce 100 milioni di vettori", ha affermato. "L'affidabilità e le prestazioni che abbiamo riscontrato ci danno la sicurezza di poter scalare in modo aggressivo".
Zhu ha concordato, sottolineando che l'architettura di Pinecone è stata progettata specificamente per gestire carichi di lavoro multi-tenant e a raffica come quelli di Delphi. "Applicazioni agentic come queste non possono essere sviluppate su un'infrastruttura che si rompe sotto scala", ha affermato.
Con l'espansione delle finestre di contesto nei grandi modelli linguistici, alcuni nel settore dell'intelligenza artificiale hanno ipotizzato che RAG potrebbe diventare obsoleto.
Sia Spelsberg che Zhu respingono questa idea. "Anche se avessimo finestre di contesto di miliardi di token, il RAG sarebbe comunque importante", ha affermato Spelsberg. "Bisogna sempre far emergere le informazioni più rilevanti. Altrimenti si spreca denaro, si aumenta la latenza e si distrae il modello".
Zhu lo ha inquadrato in termini di ingegneria del contesto , un termine che Pinecone ha recentemente utilizzato nei suoi post tecnici sul blog.
"Gli LLM sono potenti strumenti di ragionamento, ma necessitano di vincoli", ha spiegato. "Scaricare tutto ciò che si ha è inefficiente e può portare a risultati peggiori. Organizzare e restringere il contesto non è solo più economico, ma migliora anche la precisione".
Come spiegato negli scritti di Pinecone sull'ingegneria del contesto , il recupero aiuta a gestire la limitata capacità di attenzione dei modelli linguistici, selezionando il giusto mix di query degli utenti, messaggi precedenti, documenti e memorie per mantenere le interazioni coerenti nel tempo.
Senza questo, le finestre si riempiono e i modelli perdono traccia delle informazioni critiche. Grazie a questo, le applicazioni possono mantenere rilevanza e affidabilità anche nelle conversazioni di lunga durata.
Quando VentureBeat presentò per la prima volta Delphi nel 2023 , l'azienda aveva appena raccolto 2,7 milioni di dollari in finanziamenti iniziali e aveva attirato l'attenzione per la sua capacità di creare "cloni" convincenti di personaggi storici e celebrità.
L'amministratore delegato Dara Ladjevardian ha fatto risalire l'idea a un tentativo personale di riconnettersi con il suo defunto nonno attraverso l'intelligenza artificiale.
Oggi, la prospettiva è maturata. Delphi pone l'accento sulle Digital Minds non come cloni o chatbot artificiosi, ma come strumenti per ampliare la conoscenza, l'insegnamento e le competenze.
L'azienda vede applicazioni nello sviluppo professionale, nel coaching e nella formazione aziendale, ambiti in cui precisione, privacy e reattività sono fondamentali.
In questo senso, la collaborazione con Pinecone rappresenta più di un semplice adattamento tecnico. Fa parte dell'impegno di Delphi per spostare la narrazione dalla novità all'infrastruttura.
Le soluzioni Digital Minds sono ora considerate affidabili, sicure e pronte per l'uso aziendale , perché si basano su un sistema di recupero progettato per garantire velocità e affidabilità.
Guardando al futuro, Delphi prevede di ampliare il suo set di funzionalità. Una delle prossime aggiunte sarà la "modalità intervista", in cui una Mente Digitale potrà porre domande al proprio creatore/soggetto sorgente per colmare eventuali lacune conoscitive.
Ciò riduce la barriera d'ingresso per chi non dispone di archivi di contenuti estesi. Nel frattempo, Pinecone continua a perfezionare la sua piattaforma, aggiungendo funzionalità come l'indicizzazione adattiva e il filtraggio efficiente in termini di memoria per supportare flussi di lavoro di recupero più sofisticati.
Per entrambe le aziende, la traiettoria punta verso la scalabilità. Delphi prevede milioni di "Digital Mind" attive in diversi domini e con diversi target di riferimento. Pinecone vede il suo database come il livello di recupero per la prossima ondata di applicazioni agentiche, in cui l'ingegneria del contesto e il recupero rimangono essenziali.
"L'affidabilità ci ha dato la sicurezza di scalare", ha affermato Spelsberg. Zhu ha ribadito il concetto: "Non si tratta solo di gestire i vettori. Si tratta di abilitare classi di applicazioni completamente nuove che necessitano sia di velocità che di affidabilità su larga scala".
Se Delphi continuerà a crescere, milioni di persone interagiranno giorno dopo giorno con le menti digitali, depositi viventi di conoscenza e personalità, alimentati silenziosamente da Pinecone.
Se vuoi fare colpo sul tuo capo, VB Daily ha la soluzione che fa per te. Ti forniamo informazioni privilegiate su ciò che le aziende stanno facendo con l'intelligenza artificiale generativa, dai cambiamenti normativi alle implementazioni pratiche, così puoi condividere approfondimenti per massimizzare il ROI.
Leggi la nostra Informativa sulla privacy
Grazie per esserti iscritto. Scopri altre newsletter di VB qui .
Si è verificato un errore.

venturebeat